Python抓取淘宝女装信息（二）

原创 2017-04-12 赵宏田 Python爱好者社区

赵宏田，Python社区专栏作者

博客：https://zhuanlan.zhihu.com/pythoncoder

继上周的淘宝女装连衣裙信息爬虫进一步完善，进行了次级页面信息的抓取、支持多进程。

数据说明：

本次爬取淘宝女装连衣裙共8个字段信息，包括：商品ID、店铺ID、店铺地址、店铺名称、商品名称、销量、价格、商品详情链接。其中商品ID设为数据库存储的主键，防止了存储重复信息。共抓取 20258条数据。

淘宝连衣裙数据见文末

有兴趣的可以做分析，上周我们就抓取的部分数据做了简要分析

程序：https://github.com/HunterChao/Taobao/tree/master/Taobao

爬取逻辑：

以连衣裙的种类为划分，每个种类如“棉麻连衣裙、长袖连衣裙、雪纺连衣裙、针织连衣裙等”分别对应一个起始链接，共设置15个链接作为一级页面的爬取入口。

在一级页面的抓取过程中，可在该页面的<head></head>标签内提取出本页商品信息，这里页面中信息是以字典的形式存储，我们用json.loads解析出每个商品的信息，即存储到MySQL的8个字段。将其中的商品ID、店铺ID 作为关键信息，可帮助我们生成链接进入下一级爬取页面。

我们根据在一级页面抓取过程中提取出的商品ID、店铺ID进入该商品的详情页，该页面下方一般会对与本产品相关的产品设置推广介绍，如下图。我们默认连衣裙页面的推广产品也是与连衣裙相关的同类产品，对其进行抓取，后续再进行数据的有效性分析。

在程序运行的过程中，我们查看存储在MySQL中的数据，可以发现在存储的商品信息中不完全都是与连衣裙有关的，在二级页面信息的抓取过程中我们虽然扩大了抓取范围，但是同时也降低了信息的有效性，可以看到有的数据与连衣裙无关，如果要精确分析还需要对数据进一步清洗。

将抓取到的重复商品数据丢弃

保存抓取的商品数据

本文淘宝女装数据获取：关注公众号，“Python爱好者社区”，回复“女装”即可获取。

Python爱好者社区

为大家提供与Python相关的最新技术和资讯。

长按指纹 > 识别图中二维码 > 添加关注